Model Selection

DPO reinforcement learning

# DPO reinforcement learning

Bielik 1.5B V3.0 Instruct

Bielik-1.5B-v3-Instruct is a 1.6 billion parameter Polish generative text model, fine-tuned for instructions based on Bielik-1.5B-v3, developed by SpeakLeash in collaboration with ACK Cyfronet AGH.

Large Language Model

Transformers Other

Calme 2.1 Qwen2.5 72b

Advanced language model fine-tuned based on Qwen/Qwen2.5-72B-Instruct, excelling in natural language understanding and generation

Large Language Model

Transformers English

Orca Mini V5 8b Dpo

An 8B parameter model based on the Llama 3 architecture, trained with various DPO datasets, focused on text generation tasks

Large Language Model

Transformers English

Llama 3 8B Instruct 64k

An 8B parameter large language model developed based on winglian/Llama-3-8b-64k-PoSE, using PoSE technology to extend context length to 64k and optimized with DPO fine-tuning

Large Language Model

Transformers English

TC Instruct DPO

Thai instruction-optimized model fine-tuned from Typhoon-7B using Direct Preference Optimization (DPO) technology

Large Language Model

Transformers Supports Multiple Languages

Phi2 Chinese 0.2B

A 200-million-parameter Chinese causal language model based on the Phi2 architecture, supporting text generation tasks

Large Language Model

Transformers Supports Multiple Languages

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase